智能论文笔记

Learning ASR pathways: A sparse multilingual ASR model

Mu Yang , Andros Tjandra , Chunxi Liu , David Zhang , Duc Le , John H. L. Hansen , Ozlem Kalinli

分类：自然语言处理

2022-09-13

神经网络修剪可以有效地用于压缩自动语音识别（ASR）模型。但是，在多语言ASR中，执行语言不足的修剪可能会导致某些语言的严重性能降解，因为语言 - 敏捷的修剪口罩可能不符合所有语言，并丢弃了重要的语言特定参数。在这项工作中，我们提出了ASR路径，这是一种稀疏的多语言ASR模型，该模型激活了特定语言的子网络（“路径”），从而明确地学习了每种语言的参数。通过重叠的子网络，共享参数还可以通过联合多语言培训来实现较低资源语言的知识传输。我们提出了一种新型算法来学习ASR途径，并通过流式RNN-T模型评估了4种语言的建议方法。我们提出的ASR途径的表现都优于密集模型（平均-5.0％）和语言不足的修剪模型（平均-21.4％），并且与单语稀疏模型相比，低资源语言的性能更好。

translated by 谷歌翻译

Multi-Frequency Information Enhanced Channel Attention Module for Speaker Representation Learning

Mufan Sang , John H. L. Hansen

分类：机器学习

2022-07-10

最近，注意机制已成功应用于基于神经网络的说话者验证系统。将挤压和兴奋的块纳入卷积神经网络中的表现出色。但是，它使用全球平均池（GAP）简单地沿时间和频率维度平均功能，这无法在功能地图中保留足够的扬声器信息。在这项研究中，我们表明GAP是时间频域在数学上仅使用频率分解中最低频率分量的特殊情况。为了增强扬声器信息提取能力，我们建议利用多频信息，并设计两个新颖的有效注意模块，称为单频率单通道（SFSC）注意模块和多频单通道（MFSC）注意模块。提出的注意模块可以根据DCT有效地从多个频率组件中捕获更多扬声器信息。我们在Voxceleb数据集上进行了全面的实验，并对第148个UTD法医语料库进行了探测评估。实验结果表明，我们提出的SFSC和MFSC注意模块可以有效地产生更具歧视性的扬声器表示，并且优于RESNET34-SE和ECAPA-TDNN系统，而EER降低了20.9％和20.2％，而无需添加额外的网络参数。

translated by 谷歌翻译

FeaRLESS: Feature Refinement Loss for Ensembling Self-Supervised Learning Features in Robust End-to-end Speech Recognition

Szu-Jui Chen , Jiamin Xie , John H. L. Hansen

分类：机器学习

2022-06-30

自我监督的学习表示（SSLR）为许多领域的下游任务带来了强大的功能。最近，几个SSLR在自动语音识别（ASR）基准语料库中显示出令人鼓舞的结果。但是，以前的研究仅显示单独的SSLR作为ASR模型的输入功能。在这项研究中，我们建议使用端到端（E2E）ASR模型中的各种融合方法研究不同SSLR组合的有效性。此外，我们将显示这些提取的SSLR之间存在相关性。因此，我们进一步提出了去相关的特征细化损失，以有效地结合输入特征集。为了进行评估，我们表明，提议的“无所畏惧的学习功能”的性能要比系统更好，而无需为WSJ和无畏步骤挑战（FSC）语料库提出的功能完善损失。

translated by 谷歌翻译

Improving Mispronunciation Detection with Wav2vec2-based Momentum Pseudo-Labeling for Accentedness and Intelligibility Assessment

Mu Yang , Kevin Hirschi , Stephen D. Looney , Okim Kang , John H. L. Hansen

分类：自然语言处理 | 机器学习

2022-03-29

当前的领先错误发音检测和诊断（MDD）系统通过端到端音素识别实现有希望的性能。这种端到端解决方案的一个挑战是在自然L2语音上缺乏人类注销的音素。在这项工作中，我们通过伪标记（PL）程序利用未标记的L2语音，并扩展基于预先训练的自我监督学习（SSL）模型的微调方法。具体而言，我们使用WAV2VEC 2.0作为我们的SSL模型，并使用原始标记的L2语音样本以及创建的伪标记的L2语音样本进行微调。我们的伪标签是动态的，是由在线模型的合奏生成的，这确保了我们的模型对伪标签的噪声具有强大的功能。我们表明，使用伪标签进行微调可实现5.35％的音素错误率降低和2.48％的MDD F1得分在仅标签样本的基线基线。提出的PL方法还显示出优于常规的离线PL方法。与最先进的MDD系统相比，我们的MDD解决方案会产生更准确，一致的语音误差诊断。此外，我们对单独的UTD-4ACCENTS数据集进行了开放测试，在该数据集中，我们的系统识别输出基于重音和清晰度，与人类感知有着密切的相关性。

translated by 谷歌翻译

Vision-Cloud Data Fusion for ADAS: A Lane Change Prediction Case Study

Yongkang Liu , Ziran Wang , Kyungtae Han , Zhenyu Shou , Prashant Tiwari , John H. L. Hansen

分类：计算机视觉 | 机器学习

2021-12-07

随着智能车辆和先进驾驶员援助系统（ADAS）的快速发展，新趋势是人类驾驶员的混合水平将参与运输系统。因此，在这种情况下，司机的必要视觉指导对于防止潜在风险至关重要。为了推进视觉指导系统的发展，我们介绍了一种新的视觉云数据融合方法，从云中集成相机图像和数字双胞胎信息，帮助智能车辆做出更好的决策。绘制目标车辆边界框并在物体检测器的帮助下（在EGO车辆上运行）和位置信息（从云接收）匹配。使用深度图像作为附加特征源获得最佳匹配结果，从工会阈值下面的0.7交叉口下的精度为79.2％。进行了对车道改变预测的案例研究，以表明所提出的数据融合方法的有效性。在案例研究中，提出了一种多层的Perceptron算法，用修改的车道改变预测方法提出。从Unity游戏发动机获得的人型仿真结果表明，在安全性，舒适度和环境可持续性方面，拟议的模型可以显着提高高速公路驾驶性能。

translated by 谷歌翻译

Single-channel speech separation using Soft-minimum Permutation Invariant Training

Midia Yousefi , John H. L. Hansen

分类：机器学习

2021-11-16

语音分离的目标是从单个麦克风记录中提取多个语音源。最近，随着大型数据集的深度学习和可用性的进步，言语分离已被制定为监督的学习问题。这些方法旨在使用监督学习算法，通常是深神经网络学习语音，扬声器和背景噪声的判别模式。监督语音分离中的一个持久问题正在为每个分离的语音信号找到正确的标签，称为标签置换歧义。置换歧义是指确定分离源和可用的单扬声器语音标签之间的输出标签分配的问题。计算分离误差需要找到最佳输出标签分配，后来用于更新模型的参数。最近，置换不变训练（PIT）已被证明是处理标签歧义问题的有希望的解决方案。但是，通过坑的输出标签分配的过度自信选择导致次优训练模型。在这项工作中，我们提出了一个概率的优化框架来解决坑中找到最佳输出标签分配的效率。然后，我们所提出的方法在折放不变训练（PIT）语音分离方法中使用的相同的长短期内存（LSTM）架构。我们的实验结果表明，所提出的方法优于传统的坑语音分离（P值$ <0.01 $），在信号到失真比（SDR）和干扰比中的失真率（SDR）和+ 1.5dB中的+ 1dB（SIR）。

translated by 谷歌翻译

Beyond Low Earth Orbit: Biomonitoring, Artificial Intelligence, and Precision Space Health

Ryan T. Scott , Erik L. Antonsen , Lauren M. Sanders , Jaden J. A. Hastings , Seung-min Park , Graham Mackintosh , Robert J. Reynolds , Adrienne L. Hoarfrost , Aenor Sawyer , Casey S. Greene

分类：机器学习

2021-12-22

超越地球轨道的人类空间勘探将涉及大量距离和持续时间的任务。为了有效减轻无数空间健康危害，数据和空间健康系统的范式转移是实现地球独立性的，而不是Earth-Reliance所必需的。有希望在生物学和健康的人工智能和机器学习领域的发展可以解决这些需求。我们提出了一个适当的自主和智能精密空间健康系统，可以监控，汇总和评估生物医学状态;分析和预测个性化不良健康结果;适应并响应新累积的数据;并提供对其船员医务人员的个人深度空间机组人员和迭代决策支持的预防性，可操作和及时的见解。在这里，我们介绍了美国国家航空航天局组织的研讨会的建议摘要，以便在太空生物学和健康中未来的人工智能应用。在未来十年，生物监测技术，生物标志科学，航天器硬件，智能软件和简化的数据管理必须成熟，并编织成精确的空间健康系统，以使人类在深空中茁壮成长。

translated by 谷歌翻译

Beyond Low Earth Orbit: Biological Research, Artificial Intelligence, and Self-Driving Labs

Lauren M. Sanders , Jason H. Yang , Ryan T. Scott , Amina Ann Qutub , Hector Garcia Martin , Daniel C. Berrios , Jaden J. A. Hastings , Jon Rask , Graham Mackintosh , Adrienne L. Hoarfrost

分类：机器学习

2021-12-22

空间生物学研究旨在了解太空飞行对生物的根本影响，制定支持深度空间探索的基础知识，最终生物工程航天器和栖息地稳定植物，农作物，微生物，动物和人类的生态系统，为持续的多行星寿命稳定。要提高这些目标，该领域利用了来自星空和地下模拟研究的实验，平台，数据和模型生物。由于研究扩展到低地球轨道之外，实验和平台必须是最大自主，光，敏捷和智能化，以加快知识发现。在这里，我们介绍了由美国国家航空航天局的人工智能，机器学习和建模应用程序组织的研讨会的建议摘要，这些应用程序为这些空间生物学挑战提供了关键解决方案。在未来十年中，将人工智能融入太空生物学领域将深化天空效应的生物学理解，促进预测性建模和分析，支持最大自主和可重复的实验，并有效地管理星载数据和元数据，所有目标使生活能够在深空中茁壮成长。

translated by 谷歌翻译

Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval

John Wieting , Jonathan H. Clark , William W. Cohen , Graham Neubig , Taylor Berg-Kirkpatrick

分类：自然语言处理 | 机器学习

2022-12-21

Contrastive learning has been successfully used for retrieval of semantically aligned sentences, but it often requires large batch sizes or careful engineering to work well. In this paper, we instead propose a generative model for learning multilingual text embeddings which can be used to retrieve or score sentence pairs. Our model operates on parallel data in $N$ languages and, through an approximation we introduce, efficiently encourages source separation in this multilingual setting, separating semantic information that is shared between translations from stylistic or language-specific variation. We show careful large-scale comparisons between contrastive and generation-based approaches for learning multilingual text embeddings, a comparison that has not been done to the best of our knowledge despite the popularity of these approaches. We evaluate this method on a suite of tasks including semantic similarity, bitext mining, and cross-lingual question retrieval -- the last of which we introduce in this paper. Overall, our Variational Multilingual Source-Separation Transformer (VMSST) model outperforms both a strong contrastive and generative baseline on these tasks.

translated by 谷歌翻译

Biomedical image analysis competitions: The state of current participation practice

Matthias Eisenmann , Annika Reinke , Vivienn Weru , Minu Dietlinde Tizabi , Fabian Isensee , Tim J. Adler , Patrick Godau , Veronika Cheplygina , Michal Kozubek , Sharib Ali

分类：计算机视觉 | 机器学习

2022-12-16

The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.

translated by 谷歌翻译